Mon groupe envisage d’utiliser deux ensembles de données dans notre projet de cours. Le premier ensemble de données couvre les ventes d’une grande chaîne de supermarchés aux États-Unis de 2014 à 2017, et le deuxième ensemble de données couvre les ventes de Walmart Myanmar au premier trimestre 2019. Notre analyse se concentrera sur cinq dimensions : la commande, le client, le produit, la météo et l’emplacement. Nous analyserons principalement les données pertinentes des supermarchés américains, chercherons à comprendre les raisons possibles de la baisse du taux de croissance des ventes et proposerons des moyens d’augmenter les ventes. Dans le même temps, nous comparerons également les transactions entre les États-Unis et le Myanmar afin de mieux comprendre le marché et de fournir des données pour les stratégies de marché transfrontalières.
Ensemble de données sur le commerce de détail d’une grande surface internationale pendant 4 ans aux États-Unis. Il comprend divers attributs, notamment le ID de la command, la date de commande, la date d’expédition, le mode d’expédition, ID de client, le nom du client, le pay de cette commande, la ville de commande, le code postal, la région, ID de produit, la catégorie de produit, le nom du produit, le montant des ventes de ce produit, le nombre d’unité (pièce) de ce produit, le montant de réduction de ce produit. Ce riche ensemble de données facilite l’analyse détaillée et la compréhension des préférences des clients, de la façon de transport, de la génération de revenus, ce qui permet aux entreprises de changer leurs stratégies pour enlever la satisfaction des clients.
Nombre d’observations: 9995
Nombre de variables: 21
| Caractéristique | Description | Type |
|---|---|---|
| invoice_id | Identifiant de la facture | String |
| branch | Le symbol de ce chaîne de Walmart | char(A, B, C) |
| city | La ville où se trouve le Walmart | String |
| customer_type | Membre ou non (carte de fidélité) | String(Membre, Normal) |
| gender | Sexe de ce client | String(Female, Male) |
| product_line | Catégorie de cet article | String |
| unit_price | Prix d’un pièce | float |
| quantity | Quantité des articles achetés | int |
| vat | TVA en France | float |
| total | Montant total d’achat | float |
| dtme | Date et l’heure de l’achat | DATE(YYYY/MM/DD) |
| tme | Heure précise de l’achat | TIME(HH:MM:SS) |
| payment_method | Mode de paiement, comme espèces | char |
| cogs | Coût d’un produit vendu | float |
| gross_margin_pct | Marge brute en pourcentage(%) | float |
| gross_income | Revenu brut total | float |
| rating | Évaluation de l’expérience d’achat | float |
| time_of_day | Moment d’achat, comme matin/midi | String |
| day_name | Jour de la semaine | String |
| month_name | Mois où l’achat a été effectué | String |
L’ensemble de données fournit des informations complètes sur les transactions de vente effectuées par Walmart, l’une des principales chaînes de magasins au monde. Il comprend divers attributs, notamment l’ID de la facture, la succursale, la ville, le type de client, le sexe, la ligne de produit, le prix unitaire, la quantité, la taxe (5 %), le prix total, la date, l’heure, le mode de paiement, le coût des marchandises vendues (COGS), le pourcentage de marge brute, le revenu brut et l’évaluation. Ce riche ensemble de données facilite l’analyse détaillée et la compréhension des modèles de vente, des préférences des clients, de la génération de revenus et de l’évaluation des performances, ce qui permet aux entreprises de prendre des décisions et des stratégies éclairées pour améliorer leur efficacité opérationnelle et la satisfaction des clients.
Nombre d’observations: 1001
Nombre de variables: 20
| Caractéristique | Description | Type |
|---|---|---|
| Row ID | Identifiant de ligne(1, 2…) | int |
| Order ID | Identifiant de la commande | String |
| Order Date | Date à laquelle la commande se passe | DATE(DD/MM/YYYY) |
| Ship Date | Date d’expédition | DATE(DD/MM/YYYY) |
| Ship Mode | Mode d’expédition de la commande | String |
| Customer ID | ID du client associé à la commande | String |
| Customer Name | Nom du client | String |
| Segment | Segment de client(entreprise, particulier) | String |
| Country | Pays de cette commande | String |
| City | Ville où la commande a été expédiée | String |
| State | États aux états-unis | String |
| Postal Code | Code postal | int |
| Region | Région géographique(l’est, l’ouest…) | String |
| Product ID | Identifiant du produit de cette commande | String |
| Category | Catégorie générale(comme Product Line) | String |
| Sub-Category | Sous-catégorie spécifique du produit | String |
| Product Name | Nom du produit | String |
| Sales | Montant des ventes de ce produit | float |
| Quantity | Nombre d’unités de ce produit | int |
| Discount | Montant de réduction à ce produit | float |
| Profit | Montant de profit généré par ce produit | float |
Nous avons obtenu des informations complètes sur les transactions de vente dans les grands supermarchés aux États-Unis et au Myanmar respectivement, et effectuerons une analyse des données à ce sujet. Voici quelques exemples d’analyse de requêtes sur cet ensemble de données :
Dimension de la commande : Quel est le montant moyen de la transaction et le taux de connexion de chaque commande ? Quelle est la relation entre le montant de la commande et le nombre d’articles commandés ? Quel est le prix total et le bénéfice de chaque commande ?
La relation entre le montant de la commande et le nombre d’articles dans la commande peut refléter les caractéristiques du comportement d’achat du client. L’analyse de ces indicateurs peut aider les entreprises à comprendre les caractéristiques et les tendances du comportement d’achat des clients, orientant ainsi les stratégies de vente et les activités marketing de l’entreprise. Par exemple, s’il existe une forte corrélation positive entre le montant de la commande et le nombre de produits, l’entreprise peut prendre certaines mesures pour encourager les clients à acheter davantage de produits, telles que la lancement de réductions sur les forfaits, les ventes combinées, etc. Si le taux combiné est faible, cela peut accroître la volonté des clients d’acheter plusieurs produits par le biais de ventes liées, d’activités promotionnelles, etc., augmentant ainsi les ventes.
Dimension client :
En tant que modèle d’analyse du comportement de consommation dans le domaine de la gestion de la relation client, le modèle RFM comprend trois variables : le moment de l’achat récent R (Récence), la fréquence d’achat F (Fréquence) et le montant de l’achat M (Monétaire). En analysant le nombre de jours dans l’intervalle de temps, plus la valeur est petite, plus la probabilité d’achat répété du client est grande et plus la valeur du client est élevée. F représente le nombre de fois que le client achète des marchandises au cours de la période. Plus l’achat est élevé. fréquence, plus le client est fidèle. M représente le montant total de l’achat. Le montant de l’achat et la fidélité du client sont également directement proportionnels, de sorte que la valeur du client peut être obtenue en analysant le score RFM.
Dimension du produit : Le positionnement prix du produit est-il élevé ou bas ? Quelle gamme de prix de produits se vend le mieux ? Quel niveau de prix génère réellement le plus de ventes ?
Les ventes par segment révèlent non seulement les catégories de produits les plus populaires, mais soulignent également les domaines dans lesquels la demande du marché n’est pas entièrement satisfaite.
Dimension temporelle : Quelle est la tendance des ventes pour chaque mois/jour et quelle est l’analyse du taux de croissance (ou du taux de déclin) ? Quel a pu être l’impact ?
En analysant la répartition des données de vente sur différents jours, les entreprises peuvent optimiser la préparation des stocks pour faire face aux pics de trafic client. L’analyse peut également guider la planification de campagnes marketing, telles que l’offre de promotions spéciales pendant les périodes de baisse attendue des ventes.
Dimension géographique : De quels pays proviennent principalement les clients ? Quel pays est le principal marché étranger ? Dans quel pays les clients ont le pouvoir d’achat moyen le plus élevé ?
Cette analyse peut examiner les différences de ventes par région en raison de la densité de population, du pouvoir d’achat des clients ou de la commodité géographique. Une analyse plus approfondie peut également identifier les domaines dans lesquels il existe une plus grande demande pour un produit ou un service spécifique, ce qui peut indiquer des opportunités d’expansion ou une pénétration accrue du marché.
Comparaison des prix et des marges bénéficiaires : Comparer les prix des produits et les marges bénéficiaires dans les deux pays peut aider les entreprises à comprendre la sensibilité aux prix et la compétitivité des différents marchés.
Part de marché et potentiel de croissance : En analysant les données de ventes, vous pouvez comprendre la part de marché et le potentiel de croissance de l’entreprise sur les deux marchés. Cela permet d’identifier et de prioriser les opportunités d’expansion du marché.
Environnement économique et comportement des consommateurs : En comparant les données de ventes de deux pays, nous pouvons comprendre l’environnement économique, le niveau de revenus des consommateurs et le pouvoir d’achat des pays respectifs, fournissant ainsi une référence pour la formulation de stratégies de marché.
- La sous-catégorie des téléphones arrive en tête en termes de parts de
marché, avec une part de plus de 15 %, ce qui suggère une forte demande
de produits téléphoniques sur le marché américain. - Les sous-catégories
des chaises et des classeurs suivent avec des parts de marché d’un peu
moins de 10 % chacune, ce qui reflète probablement la demande constante
de mobilier et de fournitures de bureau sur le marché. - D’autres
sous-catégories telles que le stockage, les copieurs et les appareils
ménagers ont des parts de marché plus faibles, mais cela ne signifie pas
qu’elles n’ont pas de potentiel de croissance. La faible part de marché
peut être due à une forte concurrence sur le marché ou à la nature du
segment.
“Client unit” se réfère au nombre moyen d’articles
achetés par un client en une seule transaction.
Analyse des Graphiques:
USA : Les unités moyennes de clients varient légèrement d’année en année, avec une tendance à la baisse de 2014 à 2017.
MYA : Pour l’année 2019, l’unité moyenne de clients est de 5,5 articles, ce qui est plus bas que les unités moyennes observées aux États-Unis pour les années données.
Analyse des Graphiques:
USA
MYA
Conclusion
We want to clean the data in the dataset US
## # A tibble: 8,326 × 7
## product_id category sub_category unit_price quantity total profit
## <chr> <chr> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 FUR-BO-10000112 Furniture Bookcases 91.7 9 825. -118.
## 2 FUR-BO-10000330 Furniture Bookcases 103. 8 823. -4.84
## 3 FUR-BO-10000330 Furniture Bookcases 121. 2 242. 33.9
## 4 FUR-BO-10000362 Furniture Bookcases 120. 3 359. -35.9
## 5 FUR-BO-10000362 Furniture Bookcases 137. 1 137. 5.13
## 6 FUR-BO-10000362 Furniture Bookcases 145. 2 291. 27.4
## 7 FUR-BO-10000362 Furniture Bookcases 171. 2 342. 78.7
## 8 FUR-BO-10000362 Furniture Bookcases 171. 6 1026. 236.
## 9 FUR-BO-10000468 Furniture Bookcases 14.6 7 102. -184.
## 10 FUR-BO-10000468 Furniture Bookcases 38.9 4 155. -7.77
## # ℹ 8,316 more rows
Nous voulons nettoyer les données de l’ensemble de données mya. Nous conservons les champs suivants : product_id, category, unit_price, quantity, total, profit. Une chose à noter est que le « invoice_id » représente le « product_id ».
## # A tibble: 1,000 × 6
## product_id category unit_price quantity total profit
## <chr> <chr> <dbl> <dbl> <dbl> <dbl>
## 1 114-35-5271 Electronic accessories 57.9 8 486. 110.
## 2 120-06-4233 Electronic accessories 30.6 6 193. 43.7
## 3 122-61-9553 Electronic accessories 51.3 9 485. 110.
## 4 124-31-1458 Electronic accessories 79.6 3 251. 56.8
## 5 132-32-9879 Electronic accessories 94.0 4 395. 89.5
## 6 134-54-4720 Electronic accessories 42.4 8 356. 80.8
## 7 134-75-2619 Electronic accessories 19.3 7 142. 32.2
## 8 137-63-5492 Electronic accessories 58.8 10 617. 140.
## 9 139-20-0155 Electronic accessories 40.3 10 423. 96.0
## 10 151-16-1484 Electronic accessories 32.2 4 135. 30.7
## # ℹ 990 more rows
Nous pouvons voir que les produits moins chers que 500$ se vendent mieux. En d’autres termes, la fourchette de prix 0-500$ est la meilleure. Mais en fait, la baisse du prix ne génère pas le plus de ventes. Il y a beaucoup de points rassemblés dans le coin inférieur gauche.
Sur les marchés où la sensibilité au prix est élevée, on observe généralement une large distribution des prix des produits et des marges bénéficiaires plus faibles, car les consommateurs ont tendance à préférer les produits moins chers. À l’instar du marché américain
À l’inverse, sur les marchés où la sensibilité au prix est faible, la distribution des prix des produits est généralement plus étroite et les marges bénéficiaires plus élevées. C’est le cas du marché du MYA.
Sur les marchés très concurrentiels, les bénéfices sur les produits ont tendance à être concentrés, car les concurrents s’efforcent de baisser les prix pour attirer les consommateurs, réduisant ainsi les marges bénéficiaires des entreprises. À l’instar du marché américain
Sur les marchés moins concurrentiels, les bénéfices sur les produits ont tendance à être plus largement répartis, car les entreprises disposent d’une plus grande flexibilité en matière de fixation des prix et peuvent maintenir des marges bénéficiaires relativement plus élevées. Tout comme le marché du MYA.
Dans la dimension temporelle, nous devons analyser les questions suivantes concernant les données des supermarchés américains:
Quelle est la tendance des ventes chaque mois et quelle est l’analyse du taux de croissance (ou du taux de baisse)? Quel a pu être l’impact ?
Afin de voir clairement la tendance des ventes mensuelles, nous allons tracer un graphique des ventes mensuelles :
Comme le montre la figure ci-dessus, il s’agit du graphique
chronologique du volume des ventes et des bénéfices de 2014 à 2017, et
du graphique chronologique des ventes de 2014 à 2017. Comme le montre la
figure, les ventes et le volume des ventes suivent une tendance à la
hausse, et il existe des fluctuations saisonnières évidentes au cours
des quatre années, les meilleures conditions de vente étant enregistrées
en juillet, octobre et novembre. Avec une activité en croissance
constante, nous espérons prédire les ventes futures sur la base des
ventes historiques sur 4 ans, afin de procéder à de futurs ajustements
et configurations stratégiques.
La prévision de séries chronologiques implique principalement d’organiser un ensemble de valeurs d’observation dans une série chronologique, traitant ainsi la série chronologique et utilisant des modèles mathématiques pour l’étendre davantage afin de prédire la tendance de développement à l’avenir.
Les données sur les ventes des supermarchés présentées dans cet article sont des données chronologiques évidentes de janvier 2014 à décembre 2017. Elles présentent deux caractéristiques: l’une est que le chiffre ci-dessus montre que ses ventes présentent des changements cycliques saisonniers, et l’autre est que les ventes ont une tendance à la croissance stable. , la méthode des séries chronologiques peut donc être utilisée pour prédire les ventes futures sur la base de 4 années de données de ventes historiques.
Pour utiliser le modèle ARIMA d’analyse de séries chronologiques pour les prévisions de ventes trimestrielles en 2018, nous devons d’abord créer un objet de série chronologique, puis sélectionner les paramètres, l’ajustement et les prévisions du modèle ARIMA appropriés.
## Series: sales_ts
## ARIMA(0,1,1)(0,1,0)[4]
##
## Coefficients:
## ma1
## -0.5792
## s.e. 0.2375
##
## sigma^2 = 627570347: log likelihood = -126.7
## AIC=257.41 AICc=258.91 BIC=258.2
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE ACF1
## Training set 6157.883 19804.83 14012.62 3.683223 9.574013 0.5767638 -0.1967123
## Point Forecast Lo 80 Hi 80 Lo 95 Hi 95
## 2018 Q1 160408.6 128304.0 192513.2 111308.8 209508.4
## 2018 Q2 171028.1 136196.4 205859.8 117757.7 224298.6
## 2018 Q3 233515.7 196155.5 270875.9 176378.2 290653.2
## 2018 Q4 317317.8 277589.7 357046.0 256558.9 378076.8
Les données du tableau de prévisions montrent les éléments suivants:
Prévisions ponctuelles: représente les ventes moyennes prévues pour chaque trimestre. Lo 80 et Hi 80:indiquent l’intervalle de confiance de 80%, ce qui signifie que la valeur prédite a une probabilité de 80% de se situer dans cette plage. Lo 95 et Hi 95:indiquent l’intervalle de confiance de 95%, ce qui signifie que la valeur prédite a une probabilité de 95% de se situer dans cette plage.
Nous analyserons le graphique prévisionnel généré, qui représente les ventes réelles de 2014 à 2017 et les ventes prévues pour 2018. L’image est discontinue entre le quatrième trimestre 2017 et le premier trimestre 2018 car la valeur prédite est une valeur de plage et il est impossible de trouver un point précis à connecter dans un graphique linéaire, mais cela n’affecte pas la lecture. Il est facile de voir sur l’image :
Les données de ventes réelles de 2014 à 2017 ont montré des fluctuations saisonnières évidentes, qui peuvent être liées aux activités de vente ou au comportement d’achat des consommateurs au cours de saisons spécifiques.
Les prévisions pour 2018 montrent une tendance à la hausse des ventes, mais l’incertitude des prévisions augmente avec le temps, ce qui se reflète dans l’élargissement de la zone ombrée.
Comme le montre le graphique, même si la tendance générale est à la hausse, la croissance des ventes semble avoir ralenti certaines années, comme de 2016 à 2017.
Cela peut être dû à plusieurs facteurs :
-Saturation du marché : à mesure que le marché devient saturé, la croissance des ventes ralentira naturellement.
-Concurrence intensifiée : L’entrée de nouveaux concurrents ou les stratégies concurrentielles des concurrents existants peuvent affecter les ventes.
-Impact économique : les changements dans les conditions macroéconomiques, comme une récession ou une baisse de confiance des consommateurs, peuvent également affecter les ventes.
En réponse à ces tendances observées et aux changements potentiels du marché, la direction des supermarchés peut envisager les stratégies suivantes:
1.Diversifier les produits et services: attirez plus de clients et répondez à la concurrence en introduisant de nouveaux produits ou services.
2.Renforcer les activités de promotion et de marketing : Surtout pendant les périodes de faibles ventes, stimuler la consommation grâce à des promotions et des activités de marketing ciblées.
3.Optimisez la gestion des stocks: ajustez les stocks en fonction des tendances des ventes et des changements saisonniers pour réduire le risque de surstocks et de ruptures de stock.
4.Études de marché et de consommation: mener en permanence des études de marché et sur le comportement des consommateurs pour mieux comprendre les changements dans la demande du marché et les préférences des consommateurs.
Grâce à ces analyses et stratégies, les supermarchés peuvent mieux s’adapter aux changements du marché, optimiser leur efficacité opérationnelle et stimuler la croissance des ventes.
Dans la dimension régionale, nous répondrons principalement aux questions suivantes : De quelles villes aux États-Unis proviennent principalement les clients ? Quelle ville a le pouvoir d’achat moyen des clients le plus élevé ?
Nous pouvons voir que New York et Los Angeles sont les deux villes avec les ventes et le volume de clients les plus élevés. Dans le même temps, les ventes et le volume de clients de Philadelphie, San Francisco, Seattle, Houston et Chicago sont bien supérieurs à ceux des autres villes. villes. Nous devrions nous concentrer sur ces villes et élaborer un plan de vente.
Nous calculons les ventes moyennes des clients dans chaque ville pour déterminer quelle ville a le pouvoir d’achat moyen le plus élevé. Comme il y a trop de villes, notre image sélectionne uniquement les 10 premières villes à afficher.
Ce graphique montre les 10 villes des États-Unis avec les ventes moyennes les plus élevées. Chaque barre représente les ventes moyennes pour une ville donnée. Les noms des villes sont affichés sur l’axe vertical, tandis que les ventes moyennes sont affichées sur l’axe horizontal en dollars américains.
D’après le graphique :
Jamestown est la ville avec les ventes moyennes les plus élevées, bien au-dessus des autres villes. Cheyenne et Bellingham suivent respectivement en deuxième et troisième positions. D’autres villes comme Independence, Burbank, etc., sont également parmi les 10 premières. Ce graphique aide à comprendre quelles villes ont les clients qui dépensent le plus en moyenne par transaction, ce qui est précieux pour l’élaboration de stratégies de marketing et de vente.
Dans ce projet d’analyse de données, nous avons utilisé le langage R pour effectuer une analyse approfondie des données de ventes des supermarchés. Nous avons analysé les supermarchés aux États-Unis et au Myanmar sous cinq dimensions, et avons finalement produit une application Shiny pour mettre en œuvre des graphiques interactifs sur le nombre de clients et le montant moyen des ventes dans différentes villes.
Au cours du projet, nous avons rencontré les difficultés et défis suivants :
Cette page enregistre la répartition du travail de chaque membre de l’équipe. La description de poste de chaque membre est détaillée ci-dessous.
Yifei était chargé de résoudre les problèmes liés aux dimensions temporelles et géographiques, et a utilisé Shiny pour créer des graphiques interactifs sur le nombre de clients et le montant moyen des ventes dans différentes villes. Les travaux spécifiques comprennent, sans toutefois s’y limiter :
2.2.5 Comment classer les clients en fonction de leur comportement de consommation et formuler des stratégies correspondantes ?
Le modèle RFM (Récence, Fréquence, Monétaire) est une technique de segmentation des clients utilisée en marketing pour analyser et regrouper les clients en fonction de leurs comportements d’achat.
Chaque client est affecté à un groupe RFM, qui représente sa performance sur ces trois dimensions. Voici une description de chaque catégorie :
Analyse des Graphiques:
Le pie chart montre que dans les supermarchés américains étudiés, les trois types de clients(New Customers, Important Win-Back Customers, Important Value Customers) représentent la plus grande proportion, donc sur la base de l’introduction précédente, nous pouvons adopter les méthodes de marketing correspondantes.